119 research outputs found

    Lettres, mots, textes - Clefs d'accès à l'écrit numérique

    Get PDF
    National audienceLes moteurs de recherche en texte intégral font partie des outils centraux pour l'anayse littéraire sur corpus numérique. Une introduction simple aux techniques usuelles (indexation par fichier inverse, modèle de l'espace vectoriel) permet de comprendre sur quoi reposent les différents modes d'accès au texte et de prendre en compte les biais induits par le traitement automatique. Avec une approche linguistique, on examine en particulier dans le détail le fonctionnement et la signification de l'ensemble des opérateurs booléens courants issus des langages documentaires (troncature, ET, OU, etc.), pour en maîtriser et adapter l'utilisation pour l'interrogation du texte intégral. On explique pourquoi certaines propositions novatrices (interrogation en langage naturel, pondération manuelle des mots-clés, tri par pertinence décroissante, représentations cartographiques...) peuvent s'avérer contre-productives, et supposent a minima un utilisateur averti. Le texte intégral se prête en définitive à trois approches dont il faut cultiver la complémentarité : il peut être vu comme une suite de lettres (perspective graphique), donnant notamment accès à certaines propriétés morphologiques quelquefois intéressantes en contexte multilingue ; le texte peut être naturellement analysé comme formé d'unités lexicales articulées syntaxiquement ; mais cette seconde persective ne doit pas occulter un point de vue textuel, qui restitue aux unités linguistiques les contextes conditionnant leur composition et leur interprétation

    Sémantique interprétative et analyses automatiques de textes : que deviennent les sèmes ?

    Get PDF
    Numéro thématique dirigé par Benoît HABERT et intitulé :"Dépasser les sens iniques dans l'accès automatisé aux textes"National audienceSemes are usually understood as semantic primitives, in order to describe meanings. As for F. Rastier, semes are contextually defined, and are the result of an interpretative path. This modelisation accounts for successes and limits of some statistical and distributional approaches. Some of the mathematical properties implied are not linguistically appropriate, so that the processing has to be defined on new bases. Text semantics also sheds new light on NLP tools and processes : dictionaries, taggers, corpus. A new clustering method is proposed as a means to modelize isotopies, and thus texts topics. These computed semantic classes are inherently different from the ones manually defined by experts.Le sème est souvent compris comme une primitive utilisable pour décrire les sens des mots. Or, tel que le présente F. Rastier, il est défini par et dans un contexte, et apparaît comme le résultat de l'interprétation d'un texte. Cette conception du sème permet de comprendre les succès et les limites d'analyses statistiques ou distributionnelles de textes. Certaines propriétés mathématiques des modélisations se révèlent linguistiquement inadéquates ; choisir le cadre de la sémantique interprétative conduit alors à redéfinir les traitements par-delà le seul ajustement des paramètres. Cette perspective oriente également certains choix concernant les outils et les étapes du TAL : dictionnaires, analyseurs morpho-syntaxiques, corpus et étiquetage. Un nouveau mode de classification automatique est présenté, comme moyen de repérage et de représentation des isotopies et donc de la thématique d'un texte. Ces classes sémantiques calculées sont d'une autre nature que celles définies par des experts

    Modélisation textométrique des textes

    Get PDF
    International audienceThis contribution analyses the data model for textometry (for calculations like the ones in textual statistics (Lebart & Salem, 1994)). It also presents a review of the textual representations proposed by textometric software. Taking into account a linguistic point of view (especially Rastier's textual semantics), it then points out the limits of these representations, and explores new propositions for textual modelization in textometry.Les statistiques textuelles (ou textométrie) exploitent une représentation du texte sous forme d'une suite d'unités typées, éventuellement réparties entre des subdivisions du corpus. Pour rendre compte et tirer parti de la multiplicité des typages possibles, des logiciels ont mis au point des représentations tabulaires du texte, claires et très efficaces pour la recherche de motifs complexes. Mais les délimitations des unités et des partitions, et la catégorisation des unités, sont encore peu souples, car fortement prédéfinies. De nouvelles modélisations seraient à élaborer, qui élargiraient le rôle accordé aux propriétés, distingueraient des contextes locaux (passages) et globaux (entités), et s'associeraient avec des calculs textométriques adaptés à la caractérisation de corpus structurés, aux unités non uniformes. Nous proposons alors une schématisation des étapes d'un calcul textométrique, qui explicite les multiples sélections en jeu (niveaux de corpus, fond, forme, dimensions de lecture, d'analyse et d'affichage). Puis nous étudions la récente modélisation du texte comme trame et soulignons comment elle innove en relativisant le découpage en formes graphiques ; nous concluons en ébauchant une modélisation du texte comme trace, davantage en accord avec la sémantique différentielle et interprétative de Rastier

    Introduction

    Get PDF
    Convenons, à la suite de Rastier (2001) notamment, que les textes sont l’objet de la linguistique. Un texte est entendu ici comme « une suite linguistique empirique attestée, produite dans une pratique sociale déterminée, et fixée sur un support quelconque » (Rastier, 2001 : 21), ce qui intègre pleinement diverses formes d’expression (orales comme écrites). Le corpus de textes est alors le terrain privilégié de l’observation de la langue. Lors de la collecte des données, lors de leur enregist..

    Le discours direct au Moyen Âge : vers une définition et une méthodologie d'analyse

    Get PDF
    De nombreuses recherches menées en parallèle dans un cadre linguistique ont montré que la dichotomie entre oral et écrit était trop simple : d'une part, il est certainement plus approprié d'établir un continuum entre ces deux pôles, d'autre part il convient d'établir des catégories plus fines et plus précises, en distinguant plusieurs types d'oral et d'écrit et en dissociant le canal par lequel se fait la communication et le mode de conception du message lui-même. La recherche dont les premiers résultats sont présentés dans cet article repose sur l'exploration outillée d'un corpus de textes médiévaux. Fondée sur une approche contrastive des données, elle s'articule autour de trois grandes questions : 1) Quel accès pouvons-nous avoir à l'oral et à quelle(s) forme(s) d'oral au Moyen Age ? 2) Quelle relation peut-on établir entre le discours direct et l'oral représenté dans les documents médiévaux ? 3) Le discours direct présente-t-il une grammaire spécifique ? Le présent article propose une méthodologie empirique qui permette d'aborder ces différents points. Premièrement, il s'agit de décrire la façon dont le corpus enrichi permettant d'étudier le discours direct de manière contrastive a été élaboré et de présenter la méthodologie d'analyse et les outils utilisés. Les premiers résultats tirés de l'exploitation du corpus sont exposés dans une seconde section

    TXM : Une plateforme logicielle open-source pour la textométrie - conception et développement

    Get PDF
    International audienceThe research project Federation and Research Developments in Textometry around the creation of an Open- Source Platform distributes its XML-TEI encoded corpus textometric analysis platform online. The design of this platform is based on a synthesis of features of existing textometric software. It relies on identifying the open-source software technology available and effectively processing digital resources encoded in XML and Unicode, and on a state of the art of open-source full-text search engines on structured and annotated corpora. The architecture is based on a Java toolkit component articulating a search engine (IMS CWB), a statistical computing environment (R) and a module for importing XML-TEI encoded corpora. The platform is distributed as an open-source toolkit for developers and in the form of two applications for end users of textometry: a local application to install on a workstation (Windows or Linux) and an online web application. Still early in its development, the platform implements at present only a few essential features, but its distribution in open-source already allows an open community development. This should facilitate its development and integration of new models and methods.Le projet de recherche Fédération des recherches et développements en textométrie autour de la création d'une plateforme logicielle ouverte diffuse sa plateforme d'analyse textométrique de corpus XML-TEI en ligne. La conception de cette plateforme repose sur une synthèse des fonctionnalités des logiciels de textométrie existants. Elle s'appuie sur le recensement des technologies logicielles open-source disponibles et efficaces pour manipuler des ressources numériques XML et Unicode, et sur un état de l'art des moteurs de recherche en texte intégral sur corpus structurés et étiquetés. L'architecture consiste en une boîte à outils Java articulant un composant moteur de recherche (IMS CWB), un environnement de calcul statistique (R) et un module d'importation de corpus XML-TEI. La plateforme est diffusée sous la forme d'une boite à outils en open-source pour les développeurs informatique mais également sous la forme de deux applications pour les utilisateurs finaux de la textométrie : une application à installer sur un poste local (Windows ou Linux) et une application web accessible en ligne. Encore au début de son développement, la plateforme n'implémente à l'heure actuelle que quelques fonctionnalités essentielles, mais sa diffusion en open-source autorise un développement communautaire ouvert. Cela doit faciliter son évolution et l'intégration de nouveaux modèles et méthodes

    L'oral représenté dans un corpus de français médiéval (9e-15e) : approche contrastive et outillée de la variation diasystémique

    Get PDF
    Notre étude se base sur un corpus de textes français composés entre le 9ème et le 15ème siècle et appartenant à différents domaines et traditions ou genres discursifs (domaine historique, didactique, religieux, littéraire ; genre du roman, de la chanson de geste, de la chronique, du lapidaire, etc.). Grâce à un repérage automatique et au balisage du discours direct dans ce corpus de textes, une première étude a été récemment menée sur la " grammaire " du discours direct - et ce en quoi elle diffère de la grammaire du réci

    Des genres à l’intertexte

    Get PDF
    Le problème de la typologie des textes est crucial pour toute linguistique de corpus, l’analyse de leurs conditions de production et d’interprétation engage à privilégier la réflexion sur les genres, sans en faire l’objet exclusif de la recherche. En effet, dans l’hypothèse que les genres sont les normes déterminantes de la sémiosis textuelle, la production et l’interprétation des textes en dépend étroitement. Que l’on tienne compte ou non des genres dans la constitution des corpus, l’étude des structures intertextuelles comme des parcours intertextuels demeure subordonnée aux objectifs pratiques qui président à la constitution des corpus.Identifying text types is a key issue for any corpus linguistics. Genre analysis is not the only way to deal with this issue, but it appears to be essential as far as context and interpretation are concerned. Actually, texts genre may govern the relationships between the way a text is formulated and the meaning it conveys. Anyway, the task and setting for which the corpus is used is still a main factor in the determination of the organization of the texts and of the navigation in the corpus

    Concordanciers : Thème et variations

    Get PDF
    International audienceThe computation of a concordance is usually determined by three parameters : the word (or linguistic pattern) to be found, the size of the context given for each token, and the way the extracts should be sorted in order to facilitate the analysis. The power of this technic lies in the visual effects it creates by aligning and grouping the contexts through the centered-column presentation and the sorting of the lines. These principles can be generalized and extended : the pattern to be found can be decomposed into several zones, and each of them can be aligned as a column, or/and can be sorted.We illustrate these proposals by the implementation of a concordancer (KWAC-LLI) specialized for corpus linguistics in a distributional semantics approach. The corpus can be analysed according to four strategies, based on the syntagmatic or paradigmatic relation between predicates and arguments. The specialized concordancer tests two new features. The first one is a table which gives a global view of the concordance, with hypertext access to the detailed contexts. The second new feature is a linguistic sort, directly derived from the "classe d'objets" theory.Le calcul d'un concordancier se définit classiquement par trois paramètres : l'expression d'un pivot, la délimitation du contexte donné pour chaque occurrence relevée du pivot, et l'organisation des extraits par un tri facilitant le dépouillement. L'efficacité propre à cette technique tient essentiellement aux effets d'alignement et de regroupement issus de la présentation du pivot sur une colonne et des tris sur le pivot et son environnement. Nous proposons donc une généralisation de la technique des concordances avec l'articulation interne du pivot en plusieurs zones, focalisant et démultipliant les possibilités d'alignement et de tri.Nous prenons appui sur cette réflexion pour développer un concordancier (KWAC-LLI) adapté aux besoins linguistiques d'une sémantique distributionnelle, en l'occurrence la théorie des classes d'objets. Une combinatoire de quatre stratégies d'exploration de corpus peut être ainsi outillée, selon que l'on part de prédicats ou d'arguments pour rechercher d'autres prédicats ou d'autres arguments. Le concordancier s'enrichit dans ce contexte de deux innovations significatives : la présentation globale et synthétique des résultats sous forme de tableau hypertexte, et le tri des lignes du tableau traduisant directement un critère de pertinence linguistique donné par la théorie des classes d'objets

    Lexicométrie sur corpus étiquetés

    Get PDF
    International audienceTagged corpus are now widely available, and are of great interest for textual and linguistic studies. Some lexicometric softwares have new versions to handle such corpus, but these don't give complete satisfaction yet. However, a clear and powerful model of text for lexicometric procedures has been formalized, as a string of positions ; in each position one or several types are instanciated, from one or several sets of types, such as a set of spellings, or a set of lemmas, or a set of grammatical codes.As regards the types definition, the way these kinds of linguistic information are recorded (the record axes) should not be confused with the views one can wish for a lexicometric analysis (the analysis axes). Actually, record axes are often irrelevant analysis axes. As regards the string of positions, some positions may be removed for the purposes of the analysis, so as to define the appropriate background retained from the text. Then the analysis can also be focussed on a given pattern, standing out against the background. We finally propose means to complete the results' display. These are naturally expressed and organized according to the analysis axis, but the introduction of views from some other axes may clarify, adjust or enrich their interpretation.Devant la disponibilité et l'intérêt des corpus étiquetés, l'adaptation des logiciels de lexicométrie n'est pas encore pleinement satisfaisante. A cependant été explicité un modèle lexicométrique du texte, comme suite de positions en chacune desquelles s'instancie un type, et ce éventuellement pour plusieurs familles de types (graphies, lemmes, codes grammaticaux par exemple).Il convient d'abord de pouvoir redéfinir des dimensions d'analyse fixant les types considérés, qui ne sont pas directement la reprise des dimensions d'enregistrement des informations dans l'étiquetage, celles-ci étant généralement non pertinentes si elles sont utilisées telles quelles. Quant aux positions, il est intéressant de pouvoir en masquer certaines (filtre fond / texte) puis de focaliser les calculs sur un motif donné (sélection forme / fond). Enfin, bien que les résultats doivent rester présentés selon la dimension d'analyse qui les structure, nous proposons des manières de leur associer des éclairages selon d'autres dimensions, pour clarifier, nuancer ou enrichir l'interprétation
    • …
    corecore